类别不平衡发生在许多实际应用程序中,包括图像分类,其中每个类中的图像数量显着不同。通过不平衡数据,生成的对抗网络(GANS)倾向于多数类样本。最近的两个方法,平衡GaN(Bagan)和改进的Bagan(Bagan-GP)被提出为增强工具来处理此问题并将余额恢复到数据。前者以无人监督的方式预先训练自动化器权重。但是,当来自不同类别的图像具有类似的特征时,它是不稳定的。后者通过促进监督的自动化培训培训,基于蒲甘进行改善,但预先培训偏向于多数阶级。在这项工作中,我们提出了一种新颖的条件变形式自动化器,具有用于生成的对抗性网络(CAPAN)的平衡训练,作为生成现实合成图像的增强工具。特别是,我们利用条件卷积改变自动化器,为GaN初始化和梯度惩罚培训提供了监督和平衡的预培训。我们所提出的方法在高度不平衡版本的MNIST,时尚 - MNIST,CIFAR-10和两个医学成像数据集中呈现出卓越的性能。我们的方法可以在FR \'回路截止距离,结构相似性指数测量和感知质量方面综合高质量的少数民族样本。
translated by 谷歌翻译
人类姿势转移旨在将源人的外观转移到目标姿势。利用基于流量的非刚性人类图像的翘曲的现有方法取得了巨大的成功。然而,由于源和目标之间的空间相关性未充分利用,它们未能保留合成图像中的外观细节。为此,我们提出了基于流动的双重关注GaN(FDA-GaN),以应用于更高的发电质量的遮挡和变形感知功能融合。具体而言,可变形的局部注意力和流量相似性关注,构成双重关注机制,可以分别导出负责可变形和遮挡感知融合的输出特征。此外,为了维持传输的姿势和全球位置一致性,我们设计了一种姿势归一化网络,用于从目标姿势到源人员学习自适应标准化。定性和定量结果都表明,我们的方法在公共IPer和Deepfashion数据集中优于最先进的模型。
translated by 谷歌翻译
在本文中,我们专注于人物图像的生成,即在各种条件下产生人物图像,例如腐败的纹理或不同的姿势。在此任务中解决纹理遮挡和大构成错位,以前的作品只使用相应的区域的风格来推断遮挡区域并依靠点明智的对齐来重新组织上下文纹理信息,缺乏全局关联地区的能力代码并保留源的局部结构。为了解决这些问题,我们提出了一种Glocal框架,通过全球推理不同语义区域之间的样式相互关系来改善遮挡感知纹理估计,这也可以用于恢复纹理染色中的损坏图像。对于本地结构信息保存,我们进一步提取了源图像的本地结构,并通过本地结构传输在所生成的图像中重新获得。我们基准测试我们的方法,以充分表征其对Deepfashion DataSet的性能,并显示出突出我们方法的新颖性的广泛消融研究。
translated by 谷歌翻译
持续学习旨在从动态数据分布中学习一系列任务。如果不访问旧培训样本,难以确定的旧任务从旧任务转移,这可能是正面或负面的。如果旧知识干扰了新任务的学习,即,前瞻性知识转移是消极的,那么精确地记住旧任务将进一步加剧干扰,从而降低持续学习的性能。相比之下,通过调节学习触发的突触膨胀和突触收敛,生物神经网络可以积极忘记与新经验的学习冲突的旧知识。灵感来自于生物积极的遗忘,我们建议积极忘记限制新任务的学习以努力学习的旧知识。在贝叶斯持续学习的框架下,我们开发了一种名为积极遗忘的新方法,突触扩张 - 收敛(AFEC)。我们的方法动态扩展参数以了解每项新任务,然后选择性地结合它们,这与生物积极遗忘的底层机制正式一致。我们广泛地评估AFEC在各种持续的学习基准上,包括CIFAR-10回归任务,可视化分类任务和Atari加强任务,其中Afec有效提高了新任务的学习,并在插头中实现了最先进的性能 - 游戏方式。
translated by 谷歌翻译
This paper studies reinforcement learning (RL) in doubly inhomogeneous environments under temporal non-stationarity and subject heterogeneity. In a number of applications, it is commonplace to encounter datasets generated by system dynamics that may change over time and population, challenging high-quality sequential decision making. Nonetheless, most existing RL solutions require either temporal stationarity or subject homogeneity, which would result in sub-optimal policies if both assumptions were violated. To address both challenges simultaneously, we propose an original algorithm to determine the ``best data chunks" that display similar dynamics over time and across individuals for policy learning, which alternates between most recent change point detection and cluster identification. Our method is general, and works with a wide range of clustering and change point detection algorithms. It is multiply robust in the sense that it takes multiple initial estimators as input and only requires one of them to be consistent. Moreover, by borrowing information over time and population, it allows us to detect weaker signals and has better convergence properties when compared to applying the clustering algorithm per time or the change point detection algorithm per subject. Empirically, we demonstrate the usefulness of our method through extensive simulations and a real data application.
translated by 谷歌翻译
High-quality traffic flow generation is the core module in building simulators for autonomous driving. However, the majority of available simulators are incapable of replicating traffic patterns that accurately reflect the various features of real-world data while also simulating human-like reactive responses to the tested autopilot driving strategies. Taking one step forward to addressing such a problem, we propose Realistic Interactive TrAffic flow (RITA) as an integrated component of existing driving simulators to provide high-quality traffic flow for the evaluation and optimization of the tested driving strategies. RITA is developed with fidelity, diversity, and controllability in consideration, and consists of two core modules called RITABackend and RITAKit. RITABackend is built to support vehicle-wise control and provide traffic generation models from real-world datasets, while RITAKit is developed with easy-to-use interfaces for controllable traffic generation via RITABackend. We demonstrate RITA's capacity to create diversified and high-fidelity traffic simulations in several highly interactive highway scenarios. The experimental findings demonstrate that our produced RITA traffic flows meet all three design goals, hence enhancing the completeness of driving strategy evaluation. Moreover, we showcase the possibility for further improvement of baseline strategies through online fine-tuning with RITA traffic flows.
translated by 谷歌翻译
求解部分微分方程(PDE)是物理,生物学和化学领域的重要研究手段。作为数值方法的近似替代方法,Pinn受到了广泛的关注,并在许多领域发挥了重要作用。但是,Pinn使用完全连接的网络作为其模型,在时间和空间中,其合适能力和有限的外推能力有限。在本文中,我们提出了用于求解图形神经网络基础的部分微分方程的phygnnet,该方程由编码器,处理器和解码器块组成。特别是,我们将计算区域划分为常规网格,在网格上定义部分差分运算符,然后构建PDE损失以使网络优化以构建Phygnnet模型。更重要的是,我们对汉堡方程和热方程式进行比较实验以验证我们的方法,结果表明,与PINN相比,我们的方法在时间和空间区域具有更好的拟合能力和外推能力。
translated by 谷歌翻译
细粒度的动作识别是计算机视觉中的一项具有挑战性的任务。由于细粒的数据集在空间和时间空间中具有较小的类间变化,因此细粒度的动作识别模型需要良好的时间推理和属性动作语义的歧视。利用CNN捕获高级时空特征表示能力以及变压器在捕获潜在语义和全球依赖性方面的建模效率,我们研究了两个结合CNN视觉骨干和变压器编码器以增强良好粒度动作识别的框架:1)基于编码器学习潜在的时间语义,以及2)多模式视频文本交叉编码器,以利用其他文本输入并学习视觉语义和文本语义之间的交叉关联。我们的实验结果表明,我们的变压器编码器框架有效地学习潜在的时间语义和跨模式关联,并且比CNN视觉模型改善了识别性能。我们在firgym基准数据集上实现了新的最先进的性能,用于两种拟议的架构。
translated by 谷歌翻译
持续学习需要与一系列任务的逐步兼容性。但是,模型体系结构的设计仍然是一个悬而未决的问题:一般而言,以一组共享的参数学习所有任务都受到任务之间的严重干扰;使用专用参数子空间学习每个任务时,受到可扩展性的限制。在这项工作中,我们从理论上分析了在不断学习中学习可塑性和记忆稳定性的概括错误,这可以在任务分布之间的(1)差异,(2)损失景观和(3)参数的覆盖率之间的差异。空间。然后,受到强大的生物学学习系统的启发,该系统通过多个平行的隔室处理顺序体验,我们建议将小型持续学习者(COSCL)的合作作为持续学习的一般策略。具体而言,我们介绍了一个架构,具有固定数量的较窄子网络,以并联学习所有增量任务,这可以自然地通过改善上限的三个组件来减少两个错误。为了增强这一优势,我们鼓励通过惩罚其功能表示的预测差异来合作这些子网络。有了固定的参数预算,COSCL可以将各种代表性的持续学习方法提高较大的利润率(例如,CIFAR-100-SC最高10.64%,CIFAR-100-RS为9.33%,CUB-200-100-100-100-100-100-100-100-100-100-100-100-100-100- 2011年和6.72%的小象征)并实现了新的最新性能。
translated by 谷歌翻译
由于红外图像的背景和噪音复杂,红外小目标检测是计算机视觉领域中最困难的问题之一。在大多数现有研究中,语义分割方法通常用于取得更好的结果。每个目标的质心是根据分割图作为检测结果计算的。相比之下,我们提出了一个新颖的端到端框架,用于在本文中针对小型目标检测和分割。首先,通过将UNET用作保持分辨率和语义信息的主链,我们的模型可以通过附加简单的无锚头来实现比其他最先进方法更高的检测精度。然后,使用金字塔池模块来进一步提取特征并提高目标分割的精度。接下来,我们使用语义分割任务,这些任务更加关注像素级特征,以帮助对象检测的训练过程,从而提高了平均精度,并允许模型检测一些以前无法检测到的目标。此外,我们开发了用于红外小目标检测和分割的多任务框架。与复合单任务模型相比,我们的多任务学习模型在保持准确性的同时,将复杂性降低了近一半,并将推断加速近两次。代码和模型可在https://github.com/chenastron/mtunet上公开获得。
translated by 谷歌翻译